SPSS 数据分析 – 简易指南
作者:Ruben Geert van den Berg,发表于 SPSS Data Analysis
- 建立项目文件夹并打开数据;
- SPSS 数据文件检查;
- SPSS 分类变量检查;
- SPSS 定量变量检查;
- 可选项:编辑数据;
- 选择并运行表格/图表/检验。
1. 建立项目文件夹并打开数据
在使用 SPSS 时,最浪费时间和精力的可能就是没有保持项目组织的良好性。一个相关的陷阱是没有定期对整个项目进行备份。避免这种情况的发生,首先要建立一个项目文件夹,其中包含所有的数据——原始数据和编辑后的数据、语法文件 (syntax) 和 输出文件 (output)。 我们建议你永远不要编辑你的原始数据,并将其保存在安全的地方。对我来说,通常是一个名为 “ori” 的子文件夹,它是 “原始数据 (original data)” 的缩写。确保项目包含所有你想备份的文件——并且仅包含这些文件。
建立好一个像样的项目文件夹了吗?那么让我们去打开数据吧。
保持项目井井有条,节省的时间比花费的时间要多得多。
2. SPSS 数据文件检查
现在我们知道数据中的哪些变量——可能是全部——是我们实际要使用的。从这里开始的一个好方法是直观地检查我们的数据。我们需要知道的一些事情是:
- 是否有一个唯一的个案标识符?
- 是否有变量名过长的情况?
- 是否有不需要的 字符串变量 (string variables)?
- 所有变量和值是否都清楚地标记?是否绝对清楚每件事的真正含义?如果不是,不要猜测。相反,从负责向你提供准确和完整数据的人那里获取这些信息——最好是通过电子邮件。
如果你遇到任何此类问题,立即修复它们。你越早解决这些问题,它们花费你的时间和精力就越少。
缩短这些变量名并应用变量标签比花费的精力更划算。
至此,我们的数据在技术上应该是有序的了。那么我们的变量内容如何呢?我建议你仔细检查分类变量和定量变量。
3. SPSS 分类变量检查
我们通过以下方式检查分类变量:
- 运行频率表,显示值和值标签;
- 检查相应的条形图。
一行 FREQUENCIES 命令足以一次处理多个变量。我们通常寻找的问题是:
- 是否有任何有序变量被反向编码(较低的值表示较高的评级)?如果是这样,请参阅 SPSS - 逆向编码变量的最佳方法是什么?
- 是否应该指定任何 用户缺失值 (user missing values)?
- 所有频率分布是否合理?也就是说,所有变量是否有意义?
反向编码变量——实际上并没有错,但无论如何都不方便。
如果存在任何此类问题,请尝试修复它们。如果无法修复,也许可以做一些笔记,这样以后就不会有任何不愉快的意外了。
4. SPSS 定量变量检查
我们通过以下方式检查定量变量:
- 运行基本直方图;
- 检查简单的 DESCRIPTIVES 表格。
请注意,你可以使用一行 FREQUENCIES 命令运行多个直方图,如 在 SPSS 中创建直方图 所示。直方图基本上告诉你所有你需要知道的。需要注意的问题是:
- 所有分布是否合理?平均值和标准差怎么样?
- 是否有任何必须指定为用户缺失值的极端值——非常大或非常小?
- 是否有任何变量有许多系统缺失值 (system missing)?
接下来,一个基本的 DESCRIPTIVES 表格可以方便地检查一组变量的完整性。它还可以快速比较平均值和标准差。 完成这些步骤后,我们可以确信我们的数据是可靠的。没有任何不正确或不寻常的事情会破坏任何新创建的变量或测试结果。现在——而且只有现在——我们才应该继续编辑或分析我们的数据。作为奖励,我们也知道我们的数据基本上是什么样子的。
5. 可选项:编辑数据
也许你的研究问题与仍然需要创建或调整的变量有关。那么,这就是这样做的时刻。我们最常阅读的关于常见数据调整的教程是:
- SPSS 日期变量教程 (SPSS Date Variables Tutorial)
- 如何在 SPSS 中计算年龄?(How to Compute Age in SPSS?)
- SPSS IF 命令 (SPSS IF Command)
- SPSS RECODE 命令 (SPSS RECODE Command)
- 如何在 SPSS 中计算平均值?(How to Compute Means in SPSS?)
一个很好的——仅限语法——技巧,用于在计算平均值时排除具有许多缺失值的个案。
希望这些能帮助你入门。真的,如果需要,_请_调整你的数据。这通常会以更少的精力产生更好的输出。
6. 选择并运行表格、图表和检验
首先,_哪些_表格、图表和检验是合适的,这是一个复杂的问题,没有简单的答案。通常,不同的方法同样是站得住脚的。 在任何情况下,最简单的分析技术是单独检查每个变量。这些被称为单变量分析 (univariate analyses)(“单变量”表示“对于一个变量”)。如下所示,我们至少应该区分分类变量和定量变量。
单变量分析的最小概述
水平 | 表格 | 图表 | 检验 |
---|---|---|---|
分类变量 | FREQUENCIES | 条形图频率 | 二项检验 (Binomial test) (2 个类别) 卡方拟合优度检验 (Chi-square goodness-of-fit test) (3+ 个类别) |
定量变量 | DESCRIPTIVES | 直方图 | 单样本 t 检验 (One-sample t-test) (平均值) 柯尔莫哥洛夫-斯米尔诺夫检验 (Kolmogorov-Smirnov test) (分布) |
下一步可能是检查 2 个变量是否以任何方式相关。这涉及双变量分析 (bivariate analyses)(“双变量”表示“对于 2 个变量”)。再次区分分类变量和定量变量,我们得到以下简单的概述。
双变量关联分析的最小概述
变量 A | 变量 B | 表格 | 图表 | 检验 |
---|---|---|---|---|
分类变量 | 分类变量 | CROSSTABS | 堆积条形图百分比 (Stacked bar chart percentages) | 卡方独立性检验 (Chi-square independence test) |
定量变量 | 分类变量 | MEANS | 按类别的条形图平均值 (Bar chart means by category) | 独立样本 t 检验 (Independent samples t-test) (2 个类别) 单因素方差分析 (One-way ANOVA) (3+ 个类别) |
定量变量 | 定量变量 | CORRELATIONS | 散点图 (Scatterplot) | 相关性检验 (Correlation test) (非定向) 简单线性回归 (定向) |
如果你正确理解了这些检验,你就会开始明白大多数统计检验都是这 5 大检验的变体。例如:
- 多元回归 (multiple regression) 是具有多个预测变量的简单回归;
- 逻辑回归 (logistic regression) 只是一个具有 二分 (dichotomous) 结果变量的回归;
- Kruskal-Wallis 检验 (Kruskal-Wallis test) 基本上是对排序分数的 单因素方差分析 (one-way ANOVA)。等等……
就这样了吗?不,不完全是。首先,我们只提到了分类变量和定量变量。理想情况下,我们应该区分:
- 二分变量 (dichotomous variables);
- 名义变量 (nominal variables);
- 有序变量 (ordinal variables);
- 定量变量 (metric variables)。
我们并不总是需要将这些都分开处理,但这样做会产生更完整的概述。我们正在努力,但这还需要一段时间。 现在,也许可以参考 我应该使用哪个统计检验?(Which Statistical Test Should I Use?),其中的一部分如下所示。不幸的是,此概述仅限于 统计显著性 (statistical significance) 检验,并且不建议使用哪些表格和图表。
简单的统计比较检验概述。